情報利得(information gain)
内的報酬(intrinsic rewards)
の観点:
ある遷移(
$ s_{t-1},a_{t-1}
)→(
$ s_{t}
)を観測した時、環境の構造に関する
信念(belief)
をどれだけ更新できるか
遷移確率の不確実性が高いところを探索するようになる